Analyse der Abweichungsquadrate
Beispielfall Zur Verdeutlichung der Analyse der Abweichungsquadrate im Rahmen der Varianzanalyse soll nachfolgend dieser Beispielfall dienen: Ein großer Filmverleih möchte erfahren, ob sich die Verwendung unterschiedlicher Plakatdesigns (romantisch, modern, schwarz-weiß...) für einen Film signifikant auf den Verkauf von Kinokarten auswirkt. Dazu werden nun an vier verschiedenen Kinos vier Plakatversionen für den selben Film ausgehängt und die Besucherzahlen des ersten Tages für die jeweils fünf Tagesvorstellungen der Kinos erfasst. Das Resultat sind vier Teilstichproben mit jeweils fünf Beobachtungswerten. Bild:Beispielfall_varianzanalyse.jpg Aus allen Beobachtungswerten werden nun die Gruppenmittelwerte (jedes Kino stellt hier eine eigene Gruppe dar) und der Gesamtmittelwert errechnet. Gibt es keinerlei Unterschiede bezüglich der durchschnittlichen Besucherzahlen zwischen den einzelnen Gruppen, dann kann man zu Recht vermuten, dass die Plakatdesigns keinen oder nur einen sehr geringen Einfluss auf die Verkaufszahlen besitzen. Kann aber im Umkehrschluss schon aus dem Vorliegen von Mittelwertsunterschieden auf einen Effekt bezüglich der Plakate geschlossen werden? Können nicht auch zufällige Vorgänge zu solchen Unterschieden führen? Dies kann mit Hilfe einer einfaktoriellen ANOVA erkundet werden, wobei die Erfüllung sämtlicher Voraussetzungen hier einmal unterstellt wird. Streuungszerlegung Nach der Einteilung in abhängige und unabhängige Variablen – in diesem Fall gehen wir davon aus, dass die Besucherzahlen vom Plakatdesign abhängig gemacht werden können – erfolgt die Gruppenbildung nach Faktorstufen. Für die Werte der abhängigen Variablen wird dabei in jeder Gruppe gesondert der Mittelwert ausgewiesen. Die entscheidende Frage lautet nun: Unterscheiden sich all diese Mittelwerte auch in der Grundgesamtheit signifikant voneinander, oder sind alle bei diesen Stichprobenwerten festellbaren Unterschiede lediglich auf einfache Zufallseffekte zurückzuführen? Wenn sich die im Modell nicht erfassten Einflüsse (Wetterlage, Stattfinden von anderen Events in der Umgebung etc.) für alle vier Kinos und alle fünf Vorstellungen bis auf zufällige Abweichungen gleich stark auswirken bzw. nicht existent sind (ceteris paribus-Gedanke), ist zu schlussfolgern, dass die Abweichungen der Mittelwerte voneinander sich auf den Einfluss der Plakatdesigns zurückführen lassen. Der Erwartungswert für die Anzahl der Kinobesucher in einem beliebigen Kino zu einer beliebigen Vorstellung läge bei 32,05, wenn die Plakate keine Rolle spielen würden. Geht man dagegen von einem Einfluss der Plakate aus, so ergeben sich für die vier Kinos unterschiedliche Erwartungswerte, nämlich 25, 44,2, 23,8 und 35,2. Die Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert sind nun durch den Einfluss des Faktors zu erklären, die Abweichungen der einzelnen gemessenen Werte vom Gruppenmittelwert sind dagegen auf zufällige Einflüsse zurückzuführen. Die Gesamtabweichung lässt sich daher in zwei Komponenten zerlegen (hier spricht man auch von der sogenannten Streuungszerlegung): die (durch die Faktorstufen) erklärte Abweichung und die (durch die Faktorstufen) nicht erklärte Abweichung. Bild:Streuungszerlegung.jpg Diese Streuungszerlegung, die Aufteilung der Streuung in erklärte und nicht erklärte Abweichung, lässt sich nicht nur grafisch darstellen, sondern auch für jeden einzelnen erhobenen Wert rechnerisch ermitteln. Beispielhaft betrachten sei der Wert für die erste Vorstellung im ersten Kino betrachtet: 23. Die Summe der quadrierten (um den bereits bekannten positiv-negativ-Ausgleichseffekt zu umgehen) Gesamtabweichungen SSt (SSt = Total Sum of Squares) setzt sich also zusammen aus der Summe der quadrierten Abweichungen zwischen den Faktorstufen SSb (SSb = Sum of Squares between) und der Summe der quadrierten Abweichungen innerhalb der Faktorstufen SSw (SSw = Sum of Squares within): SSt = SSb + SSw. Für den betrachteten Wert beträgt die Summe der quadrierten Gesamtabweichungen SSt = (23-32,05)² = 81,9025, die Summe der quadrierten Abweichungen zwischen den Faktorstufen SSb = (25-32,05)² = 49,7025 (die durchschnittliche Besucherzahl des ersten Kinos am Stichtag lag bei 25), die Summe der quadrierten Abweichungen innerhalb der Faktorstufen SSw = (23-25)² = 4. Die Gesamtwerte für SSt, SSb und SSw lassen sich nach diesem Muster errechnen. Bild:Streuungszerlegung_ergebnis.jpg Zusammenfassend lässt sich festhalten: die Gesamtstreuung wird in zwei additive Komponenten zerlegt. Die erklärte Abweichung ist auf den Einfluss der Faktoren auf die abhängige Variable zurückzuführen, die nicht erklärte Abweichung wird durch unbekannte äußere oder zufällige Einflüsse verursacht. Betrachtet man die Streuungszerlegung im Detail, so fällt auf, dass die Quadratsummen größer werden, je mehr Beobachtungswerte in die Berechnung eingehen. Dies bedeutet, dass SSt, SSb und SSw direkt von der Stichprobengröße abhängig sind und darum für sich genommen nicht aussagekräftig sind. Denn: der Einfluss der Faktoren auf die unabhängige Variable fällt oder wächst nicht mit der Größe der Stichprobe – man überprüft ja nicht die Zusammenhänge in der Stichprobe, sondern die „wahren“ Zusammenhänge in der Grundgesamtheit, die mit Sicherheit nicht von der Größe der Stichprobe abhängig sind. Bild:Streuungszerlegung_zusammenfassung.jpg Um eine aussagefähige Größe für die Streuung zu erhalten, werden die Werte durch die Anzahl der Freiheitsgrade geteilt. Es ergibt sich die Varianz, die von der konkreten Anzahl der Beobachtungswerte unabhängig ist. Diese empirische Varianz ist auch als mittlere quadrierte Abweichung MSS (MSS = Mean Sum of Squares) definiert. Bild:Mss.jpg Zerlegung der Freiheitsgrade Die Freiheitsgrade in unserem Beispielfall können analog zur Gesamtstreuung zerlegt werden. Insgesamt gibt es mit den 4 Kinos 4 Faktorstufen und 5 Beobachtungen pro Kino am Erhebungstag – dies bedeutet, dass eine Verteilung mit 19 Freiheitsgraden für die Berechnung der mittleren quadratischen Gesamtabweichung MSt (MSt = Mean Sum of Squares total) vorliegt. Auf der Ebene der 4 Faktorstufen können dann nur 3 frei variiert werden, was uns zu 3 Freiheitsgraden für die Berechnung der MSb (MSb = Mean Sum of Squares between) bringt. Auch die mittlere quadratische Abweichung innerhalb der Gruppen MSw (MSw = Mean Sum of Squares within) kann berechnet werden, wenn die Anzahl der Freiheitsgrade – 16 bei 4 von 5 frei variierbaren Beobachtungen pro Faktorstufe – feststeht. Bild:Freiheitsgrade_zerlegung.jpg Wäre nun die mittlere quadratische Abweichung innerhalb der Faktorstufen MSw gleich Null, dann würde die mittlere quadratische Gesamtabweichung MSt ausschließlich durch den Einfluss der Faktoren erklärt werden. Je stärker MSw von Null abweicht, desto geringer muss also der Einfluss der Faktoren auf die abhängige Variable sein: Von Interesse ist also das Verhältnis von MSb zu MSw. Im Beispielfall mit den Filmplakaten übertrifft der Wert von MSb den Wert von MSw bei weitem. Daraus kann geschlussfolgert werden, dass ein Einfluss der unabhängigen Variable – in diesem Fall die unterschiedliche Gestaltung der Plakate – auf die abhängige Variable – den Verkauf an Kinokarten – vorliegt. Berechnung der Effektstärke Ein gängiges Maß für die Stärke des Gesamteffekts ist das multiple Eta². Je näher das multiple Eta² an Eins liegt, desto größer ist der durch die Faktoren erklärte Anteil der Streuung an der Gesamtstreuung – und umso stärker ist der Gesamteffekt zu bewerten. Das multiple Eta² berechnet sich aus : Bild:Eta2.jpg Beim Filmplakate-Beispielfall ergibt sich ein multiples Eta² von 0,6628. Dies bedeutet, dass 66,28% der Gesamtstreuung durch den Faktor „Plakatdesign“ aufgeklärt werden – ein durchaus beachtlicher Anteil, der auf einen existenten Einfluss des Faktors auf die abhängige Variable hinweist. Quellen C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006. Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer. Hair, J.F., Anderson, R.E., Tatham, R.L. & Black, W.C. (1998). Multivariate data analysis (5th ed.). Upper Saddle River, NJ: Prentice Hall. Janssen, J. & Laatz, W. (2003). Statistische Analyse mit SPSS für Windows (4. Aufl.). Berlin: Springer.